Cuộc Chiến Nâng Cấp AI của Google: Dự Án Astra, Veo và Gemini
Đây là phản ứng của Google trước OpenAI.
Một AI tổng quát, một AI có thể thực sự sử dụng hàng ngày, sẽ thật xấu hổ nếu tổ chức một buổi họp báo mà không giống như thế này hiện tại.
Vào sáng sớm ngày 15 tháng 5, hội nghị phát triển Google I/O, được coi là “Gala Lễ Hội Mùa Xuân của Thế Giới Công Nghệ” đã chính thức bắt đầu. Có bao nhiêu lần trí tuệ nhân tạo được đề cập trong 110 phút của buổi phát biểu chính? Google đã đếm được:
Đúng vậy, AI đang được nói đến mỗi phút.
Cuộc cạnh tranh của AI sinh tạo gần đây đã đạt đến một đỉnh cao mới, và nội dung của hội nghị I/O này tự nhiên xoay quanh trí tuệ nhân tạo.
“Một năm trước trên sân khấu này, chúng tôi đã lần đầu tiên chia sẻ kế hoạch của mình cho mô hình lớn đa phương thức bản địa, Gemini. Nó đánh dấu thế hệ mới của I/O,” CEO Google Sundar Pichai nói. “Hôm nay, chúng tôi hy vọng mọi người có thể hưởng lợi từ công nghệ của Gemini. Những tính năng đột phá này sẽ thâm nhập vào tìm kiếm, hình ảnh, công cụ năng suất, hệ thống Android và nhiều khía cạnh khác.”
Hiện tại, cả 1.5 Pro và 1.5 Flash đều có sẵn để xem trước công khai và cung cấp một cửa sổ ngữ cảnh 1 triệu token trong Google AI Studio và Vertex AI. Giờ đây, 1.5 Pro cũng cung cấp một cửa sổ ngữ cảnh 2 triệu token cho các nhà phát triển sử dụng API và khách hàng Google Cloud qua danh sách chờ.
Ngoài ra, Gemini Nano đã được mở rộng từ đầu vào văn bản thuần túy sang đầu vào hình ảnh. Cuối năm nay, bắt đầu với Pixel, Google sẽ ra mắt Gemini Nano đa phương thức. Điều này có nghĩa là người dùng di động không chỉ xử lý đầu vào văn bản mà còn hiểu thêm thông tin ngữ cảnh, chẳng hạn như hình ảnh, âm thanh và ngôn ngữ nói.
Gia đình Gemini chào đón một thành viên mới: Gemini 1.5 Flash
1.5 Flash mới đã được tối ưu hóa cho tốc độ và hiệu suất.
Mô Hình Lớn Mở Nguồn Thế Hệ Mới Gemma 2
Hôm nay, Google cũng đã phát hành một loạt cập nhật cho mô hình lớn mã nguồn mở Gemma – Gemma 2 đã có mặt.
Như đã giới thiệu, Gemma 2 sử dụng một kiến trúc mới nhằm đạt được hiệu suất và hiệu quả đột phá, các tham số của mô hình mã nguồn mở mới là 27B.
Khi nói đến video dài, Veo có thể sản xuất video kéo dài 60 giây hoặc thậm chí dài hơn. Nó có thể làm điều này thông qua một lời nhắc duy nhất hoặc bằng cách cung cấp một loạt lời nhắc kể lại một câu chuyện. Điều này là chìa khóa cho ứng dụng của các mô hình sinh video trong sản xuất phim và truyền hình.
Veo dựa trên công việc của Google trong việc tạo nội dung hình ảnh, bao gồm Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere, và nhiều cái khác.